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摘 要 : 针对 日 渐 丰 富 的 跨 语言 的 文字 信息 资源 与 新 闻 报 道 及 科技 文献 中 的 多 标签 数据 ， 为 了 挖 气 跨 语言 间 的 相关 性 
及 数据 属性 间 的 关联 性 ， 提 出 了 带 标签 双语 主题 模型 ， 应 用 于 跨 语言 文本 分 类 与 标签 的 推荐 。 首 先 ， 假 设 科技 文献 中 
的 关键 词 与 摘要 部 分 有 着 内 容 上 的 相关 性 ， 对 关键 词 进行 提取 ,并 进行 标签 化 ,进而 把 标签 对 应 于 主题 模型 中 的 主题 ， 
实例 化 “潜在 ”的 主题 ; 其 次 ， 利 用 带 标签 双语 主题 模型 对 摘要 部 分 进行 了 训练 迭代 ; 最 后 ， 对 新 加 入 的 文档 进行 跨 语 
言 文本 分 类 及 标签 的 推荐 。 实 验 结果 表明 ， 跨 语言 文本 分 类 任务 中 Micro-Fl 达到 94.81% ， 推 荐 的 标签 也 较 好 地 体现 
出 语义 上 的 相关 性 。 

关键 词 : 主题 模型 ; 标签 ; 跨 语言 文本 分 类 ; 标签 推荐 ; 潜在 主题 
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classification and label recommendation 
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Abstract: Aiming at the increasingly rich multi language information resources and multi-label data in news reports and 


scientific literatures, in order to mining the relevance between languages and the correlation between data, this paper proposed 


labeled bilingual topic model, applied on cross-lingual text classification and label recommendation. First of all, it could 
assume that the keywords in the scientific literature are relevant to the Abstract: in same article, then extracted the keywords 
and regarded it as labels, and aligned the labels with topics in topic model, instantiated the “latent” topic. Secondly, trained the 
Abstract: in article through the topic model proposed by this paper. Finally, classified the new documents by cross-lingual 
text classifier, also recommended the labels. The experiment result show that Micro-Fl measure reaches 94.81% in 
cross-lingual text classification task, and the recommended labels also reflects the sematic relevance with documents. 


Key words: topic model; label; cross-lingual text classification; label recommendation; latent topic 


0 引言 这 使 我 们 有 可 能 把 不 同 的 事物 联系 起 来 ， 挖 掘 出 更 多 事物 间 的 
相关 性 、 更 多 属性 间 的 关联 性 。 

随 着 互联 网 普及 ， 当 今 社会 进入 了 信息 爆炸 的 时 代 。 对 海 跨 语 言 文 本 分 类 (cross-lingual text classification) 是 利用 已 

量 信息 进行 有 效 的 管理 、 挖 掘 利用 ， 有 着 重要 的 意义 和 价值 。 标注 好 类 别 的 一 种 语言 的 文本 训练 集训 练 得 到 分 类 器 ， 并 对 男 

如 今 的 信息 资源 ， 不 仅 在 规模 上 迅猛 增长 ， 资 源 类 型 及 所 使 用 一 种 语言 未 标注 类 别 的 文本 进行 分 类 的 过 程 。 相 比 于 传统 的 文 

的 语言 种 类 也 越 来 越 多 样 化 。 语 言 种 类 的 多 样 性 丰富 了 信息 资 ” 本 分 类 ， 跨 语言 文本 分 类 是 一 个 较 新 的 领域 ,研究 起 步 较 晚 。 


源 ， 但 是 语言 间 的 差异 性 ， 不 可 避免 地 给 用 户 利用 信息 资源 带 2003 年 Bel 等 人 中 第 一 次 正式 提出 跨 语 言 文 本 分 类 这 一 学 术 改 
来 了 阻碍 。 在 此 背景 下 ， 需 要 跨 语言 文本 分 类 技术 有 效 地 组 织 。 概念 ， 并 指出 : 跨 语言 文本 分 类 是 指 在 无 须 人 工 干预 的 情况 下 
多 语言 信息 资源 ， 解 决 信息 杂乱 无 章 的 问题 。 同 时 ， 当 前 众多 ”将 现 有 的 文本 分 类 系统 从 单 语 言 扩展 到 两 种 或 多 种 语言 。 国 内 
的 新 闻 报道 含有 多 个 标签 (label), 大 多 数 科技 文献 与 多 个 关键 ”外 研究 者 先后 提出 了 基于 双语 词典 、 机 器 翻译 、 洪 在 主题 模型 
词 (keyword) 所 链接 ,其 体现 的 是 信息 与 信息 间 的 相关 性 。 一。 ”等 跨 语言 文本 分 类 方法 ,Bel 等 人 凹 对 每 个 类 别 源 语言 文档 的 前 
件 事 物 有 不 同 的 属性 ,同样 一 个 属性 也 能 被 标注 于 不 同事 物 上 ， n 个 词 构成 类 别 的 特征 词 ， 之 后 使 用 双语 词典 将 未 分 类 文档 翻 
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通过 概率 的 双语 词 


译 成 目标 语言 ， 最 后 通过 相似 度 比较 进行 分 类 。Olsson 45 AC! 


方式 将 英文 训练 文档 翻译 成 捷克 语文 档 。 
基于 机 器 翻译 的 方法 是 将 所 有 文本 翻译 为 男 一 种 语言 后 进行 跨 


语言 文本 分 类 ， 包 括 源 语言 的 训练 集 翻译 为 目标 语言 进行 分 类 


I 试 集 翻译 为 源 语言 进行 分 类 。Rigutini 等 全 
提出 了 一 种 结合 机 器 翻译 与 EM 算法 的 跨 语言 文本 分 类 方法 ， 


对 英语 和 意大利 语文 档 进 行 了 分 类 。Wei 等 人 中 在 跨 语言 情感 
分 类 中 的 结构 对 应 学 习 方 法 中 通过 机 器 翻译 的 方式 翻译 中 枢 特 


征 词 。Mimno 等 人 名 提出 PLTM 主题 模型 ， 对 平行 语料库 与 可 


比较 语料库 建 模 ， 进 行 了 机 器 翻译 任务 与 跨 语 言 主 题 跟踪 。Ni 


等 人 [提出 从 维基 百科 (Wikipedia〉 中 英 可 对 比 语 料 中 挖掘 多 
语言 主题 的 方法 ， 作 者 利用 LDA Clatent Dirichlet allocation) 
主题 模型 为 多 语言 主题 建 模 ， 并 把 多 语言 文本 投射 到 潜在 主题 


空间 里 进行 了 跨 语 言 文 本 分 类 。 


tT tn 
词 选 择 对 翻译 带 来 了 困难 ， 


的 最 大 缺陷 在 于 词 的 歧义 性 和 前 n 个 特征 
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LDA 主题 模型 是 典型 的 有 向 概率 图 模型 中， 其 概率 图 模型 
如 图 1 所 示 ，w 表示 第 m 篇 文档 第 n A, a, p 为 根据 经 
验 给 定 的 Dirichlet 分 布 的 超 参 数 ，z 是 单词 Wi 所 对 应 的 主 
题 ， 参 数 0, 为 第 m 篇 文档 在 主题 上 的 分 布 ， 参 数 办 为 第 大 个 
主题 在 词 上 的 分 布 ; 给 定 文档 集合 D. D 是 一 个 M 篇 文档 构成 
的 集合 ， 第 m 篇 文档 包含 N, 个 词 ， 假 设 文档 集 D 的 主题 数 
KKS, LDA 主题 模型 生成 文档 的 过 程 如 下 : 

DO “获取 文档 的 长 度 N ~ Poission($) 
D ”选择 文档 在 主题 上 的 分 布 2~ Dir(a) 
(3) “对 于 每 个 在 文档 中 的 每 个 位 置 (mn=lto N) 

(3.1) 选择 主题 zx, ~ Multinomial(0) 

(3.2) 以 POW, | Zu D) 的 概率 选择 词 w, 

这 里 PoissionC) 、 Dir() 和 Multinomial(-) 分 别 表示 泊 松 分 
布 、Dirichlet 分 布 和 多 项 式 分 布 。 

在 构建 LDA 主题 模型 的 过 程 中 需要 进行 模型 参数 的 估计 ， 


而 且 其 策略 是 将 领域 内 的 关键 词 收 


录 到 词典 中 ， 当 出 现 词 典 未 收录 的 新 词 时 ， 无 法 对 领域 内 关键 


TI 


可 以 获取 更 多 的 语义 信息 ， 


文档 分 类 质量 。 


词 进行 收录 。 与 借助 双语 词典 的 方法 相 比 ， 采 用 机 器 翻译 系统 


但 是 翻译 系统 的 准确 率 会 较 大 影响 


其 于 潜在 主题 模型 的 跨 语 言 文本 分 类 方法 中 ， 


每 个 潜在 主题 没有 明确 上 
本 文 利用 科技 文献 、 


和 定义， 缺乏 可 解释 性 。 
新 闻 报道 中 的 多 标签 信息 与 LDA 主 


题 模 型 在 跨 语言 


题 模型 中 潜在 主题 概念 的 不 明确 性 ， 使 主题 模型 中 的 主题 有 更 
明确 的 语义 和 更 好 的 可 解释 性 。 同 时 利用 本 文 提出 的 主题 模型 
在 多 个 文档 里 挖掘 出 的 共同 "主题 "， 发 现 文档 之 间 的 美 联 性 与 


文本 处 理 中 的 应 用 ， 提 出 带 标签 双语 主题 模型 
(labeled bilingual topic model, LBTMO, K Æ Jj EAE LDA X 


m FH I] r3 EA AE N a Hp E RUSUU. EM 算法 [外 和 
Collapsed Gibbs 采样 03 等 方法 。 基 于 Gibbs 采样 的 参数 推理 方 
法 容易 理解 且 实 现 简 单 ， 能 够 非常 有 效 地 从 大 规模 文档 集中 采 
样 主题 ， 其 参数 估计 过 程 可 以 被 认为 是 文档 生成 的 逆 过 程 ， 即 
在 已 知 文档 集 的 情况 下 ， 通 过 估计 得 到 参数 值 。 根 据 图 模型 ， 
可 以 得 到 一 篇 文档 概率 值 为 : 


pow|a. f) - [pO [32 5G, |OPOv z Dae (1) 


可 以 通过 积分 避 开 实际 待 估计 的 参数 ， 转 而 对 每 个 词 的 主 


相关 性 ， 最 后 通过 这 些 “ 主 题 "对 新 的 文档 进行 标签 的 推荐 。 


1 LDA 主题 模型 


LDA 主题 模型 


文档 三 层 结构 。 


生成 模型 ， 也 称 为 一 个 三 


?是 由 Blei 于 2003 年 提出 的 一 种 文档 主题 


层 贝 叶 斯 概率 模型 ， 包 含 词 、 主 题 和 


Blei 认为 一 篇 文章 的 每 一 个 词 的 生成 过 程 是 : 
以 一 定 概率 选择 某 个 主题 ， 
个 词语 ; 文档 到 主题 服从 多 项 式 分 布 ， 主 题 到 词 服从 多 项 式 分 


并 从 这 个 主题 中 以 一 定 概率 选择 某 


布 。 这 种 假设 有 利于 大 规模 数据 处 理 中 的 空间 降 维 ， 即 把 文档 
E 题 模型 在 文档 -主题 与 主题 - 词 项 的 分 
chlet 先 验 参 数 名 ， 解 决 了 在 处 理 大 规模 语料库 


投影 到 主题 空间 。LDA 3 


布 上 引入 了 Diri 


时 出 现 的 过 拟 合 问题 。 


kelLK] 


o 


| 


ne[l, Na] 


me[l,M] 


图 1 LDA 3 


E 题 模型 的 概率 图 模型 


题 进行 采样 。 单 词 序列 下 主题 序列 的 条 件 概率 计算 如 下 : 


SUN t 
p(w,z) n, ,* f, D, 十 CU 


pw, z) Yol t ,)-1 Yi, ta)-1 (2) 


p(z, - k|z ;, w) 


其 中 ，z RRE i NEWARE; — 表示 不 包括 其 中 的 第 
i 项 ;nu 表示 k 主题 中 出 现 词 ! 的 次 数 ，p, 是 词 1 的 Dirichlet 
先 验 ; n, 表示 文档 m 出 现 主 题 1 的 次 数 ; or, 是 主题 1 的 Dirichlet 
先 验 。 


旦 获得 每 个 词 项 的 主题 编号 ,参数 可 通过 以 下 公式 计算 : 


Cut y 
T t) 3) 
val 
k 
Oni = 二 mth 
Y sa) e 
Il 


- 


其 中 : Ao RRE k 中 词 1 的 概率 ;x 表示 文档 
的 概率 。 


m 中 主题 


2 带 标签 双语 主题 模型 


LDA 主题 模型 将 高 维度 的 词 项 信息 以 低 维 的 “潜在 "主题 
形式 来 表征 ， 可 以 捕 提 文档 的 语义 信息 。 但 每 个 “潜在 ”主题 没 
有 明确 含义 ， 主 题 概 念 不 明确 ， 缺 乏 可 解释 性 。 本 文 利用 科技 
文献 、 新 闻 报 道中 的 多 标签 信息 《比如 论文 中 的 关键 词 )， 对 
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LDA 主题 模型 进行 改进 ， 提 出 带 标签 双语 主题 模型 (LBTM )。 
把 科技 文献 与 新 闻 报 道中 的 标签 视 为 主题 ， 使 主题 有 明确 的 含 
义 和 解 释 性 ， 把 “潜在 ”的 主题 实例 化 ， 赋 予 明确 的 内 涵 。 使 用 
本 文 提 出 的 模型 对 文档 进行 建 模 ， 文 档 以 “明确 ”的 主题 表示 ， 
对 文档 有 更 具体 的 说 明 ; 使 用 “明确 ”的 主题 表示 文档 集中 的 单 
， 对 概括 的 单词 集合 有 好 的 代表 方式 。 通 过 带 标签 双语 
主题 模型 建 模 ， 文 档 集 中 每 篇 文档 有 着 “明确 ”的 主题 的 概率 分 
布 ， 可 表示 为 向 量 空间 模型 中 的 向 量 ， 以 实现 跨 语 言 文本 分 类 
与 标签 的 推荐 。 

2.1 基本 思想 

段 设 文档 集 由 M 篇 文档 组 成 ， 每 篇 文档 内 容 由 两 种 语言 
Ll. L2 描述 ， 每 种 语言 所 讲述 的 内 容 是 同样 的 。 带 标签 双语 主 
题 模型 使 用 一 组 与 语言 无 关 的 “通用 ”主题 ， 对 文档 的 2 种 不 同 
语言 描述 内 容 进行 建 模 ， 每 个 “通用 ”主题 都 有 2 种 不 同 的 表示 
形式 ， 每 种 表示 形式 与 一 种 语言 相对 应 。 带 标签 双语 主题 模型 
的 概率 图 模型 如 图 2 所 示 。 


图 2 带 标签 双语 主题 模型 概率 图 模型 
其 中 Wi 表示 第 m 篇 文档 第 n ed. a 为 根据 经 验 给 定 的 
Dirichlet 分 布 的 超 参数 ， Pi 为 主题 在 语言 上 (j= 1 ,2 ) 上 的 
Dirichlet 分 布 的 超 参数 ，Y 为 文档 -主题 之 间 约 束 之 间 伯 努 利 分 
布 的 超 参数 ， 人 表示 文档 与 主题 之 间 关 系 约束 ， 且 每 篇 文档 
主题 间 的 约束 都 是 独 有 的 ， zw 是 单词 Wi 所 对 应 的 主题 ， 参 
数 ,为 第 m 篇 文档 在 主题 上 的 分 布 ， hk 为 第 个 “通用 ” 主 
在 语言 上 的 词 项 上 的 分 布 ; 给 定 文档 集合 D, D 是 有 M 篇 文档 
构成 的 集合 ,每 篇 文档 包含 两 种 语言 的 内 容 表 示 ， 第 m 篇 文档 
的 语言 万 部 分 包含 Nw 个 单词 ,假设 文档 集 DD 的 主题 数目 为 K 
个 ， 带 标签 双语 主题 模型 的 生成 文档 的 过 程 如 下 : 
(1) ”对 于 每 个 “通用 ”主题 z，(z=1,，2,，...,K) 
D ”对 于 每 种 语言 L (C j=1,2) 
(3) ”选择 词 项 的 分 布 6. ~ Pire, ) 
(4) ”然后 对 文档 集 里 的 每 篇 文档 m 
(4.1) 对 于 每 个 “通用 ”主题 z，(z=1,，2,...,K) 

(4.1.1) 选择 A „a €(0,1] ~ bernoulli(y) 

6) 选择 在 “通用 ”主题 上 的 分 布 2~ Dir(o)| ^ 
(5.1) 对 文档 里 的 第 n 个 词 
(5.1.1) 选择 主题 号 z ~ Multinomial(0,,) 


dT 


y 


N 


g 


(5.1.2) 选择 词 w,,, ~ Multinomial($, , , ) 


22 参数 估计 
在 参数 估计 阶段 ， 针 对 提出 的 主题 模型 标签 与 双语 语言 特 
对 Gibbs 采样 方法 进行 修改 。 单 词 序列 下 的 主题 序列 条 件 


[ma 
Ht 
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SHA, F: 


概率 从 单 语 的 p(z =k|zj,w) 扩展 为 双语 的 Pa m KE zn), 
其 中 w, 表示 语言 万 中 所 有 词 项 组 成 的 向 量 ; z 表示 这 些 词 项 
的 主题 分 配 ，z-i 表示 在 不 考虑 当前 上 语言 中 第 i 个 词 的 主题 
分 配 。 条 件 概 率 的 公式 如 下 : 


2 
k 
t t X n, i, 
Py B. : 


Plza, - k| zi wu) 6) 


E zx 
+B )-12 Qna, ta) 
i i j IA ja 


v-] 


Ep: nma 表示 不 考虑 当前 词 项 1 的 当前 主题 分 配 的 情况 下 ， 
语言 上 中 词 项 1 的 主题 分 配 到 的 次 数 ， ,1 表示 不 考 
虑 当前 词 项 1 的 当前 主题 分 配 的 情况 下 ， 语 言 万 中 所 有 词 项 的 
主题 分 配 到 大 的 次 数 ，V 表示 语言 DREI noin 表示 不 考 
虚 当 前 词 项 1 的 当前 主题 分 配 的 情况 下 , 文档 m 中 语言 所 有 
词 项 的 主题 分 配 到 的 次 数 ，, nus -1 表示 忽略 当前 词 项 
t 的 情况 下 ， 文 档 m 中 两 种 语言 中 单词 的 总 个 数 。 获 得 文档 每 
种 语言 每 个 单词 的 主题 分 配 以 后 ， 带 标签 双语 主题 的 文档 在 主 
题 上 的 表示 如 下 : 


k 
WL, +t Or 


0 L 
1 

» (n, +a) 

m 


má, 一 


(6) 


2.3 估计 新 文档 的 主题 分 布 
对 于 一 篇 新 的 文档 ， 它 在 主题 上 的 分 布 可 以 通过 已 经 训练 
完成 的 模型 参数 来 预测 , 并 将 新 文档 投射 到 “主题 "维度 上 的 分 


布 。 此 时 我 们 需要 计算 条 件 概率 p(z mk Zr, Wai zu Wi)» 


其 中 wi 表示 文档 d 在 Bag-of-Word 模型 下 的 向 量 ; 


—d MZ 4p 
WL, 中 当 HU 


词 项 上 的 主题 分 配 依赖 于 文档 中 其 他 词 项 的 当前 主题 分 配 与 所 
有 词 项 的 主题 分 配 ， 计 算 公 式 如 下 : 


P odo d = 一 
p, -k|z-u Wan. zu Wu) 
t t d.t k 

nut B, Th n^* +a, (7) 


V; L 
- * P Pi 
a, +B ent: )-12, Q7 *a)-1 
2 mi, +A tmi) -12 
m 


其 中 : ni 表示 不 考虑 当前 词 项 + 在 文档 4 的 第 i 个 位 


的 主 


题 分 配 的 情况 下 ， 词 项 1 的 主题 分 配 的 次 数 ;， m 表示 不 考 
虑 当前 词 项 上 在 文档 d 的 第 i 个 位 置 的 主题 分 配 的 情况 下 ， 文 
档 d 中 其 他 位 置 的 词 项 的 主题 分 配 到 上 的 次 数 。 最 后 可 以 计算 


出 新 的 文档 在 主题 上 的 分 布 ={67,07,.…,04} ， 其 中 每 个 分 量 


的 表示 如 下 : 


Sa ta) 8) 


2.4 与 “潜在 "主题 模型 的 区 别 
相 比 于 LDA 主题 模型 等 “潜在 ”主题 模型 , 本 文 提出 的 带 标 
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签 双语 主题 模型 利用 与 文档 链接 的 多 标签 数据 ， 实 例 化 “潜在 ” 


主题 , 使 主题 的 意义 不 再 是 “ 隐 含 ”的 , 而 是 “明确 ”的 。 与 传统 “ 潜 
在 ”主题 模型 区 别 如 下 : 

DERA K EAA K 的 大 小 的 确定 是 LDA 主题 模型 的 
难点 之 一 ， 需 要 从 一 定 范围 内 通过 实验 结果 选择 K 的 值 。 而 带 
标签 双语 主题 模型 中 主题 数 天 是 确定 的 ， 即 语料库 中 所 有 文档 
的 标签 中 去 重 后 唯一 标签 数 ; 

b) 文 档 的 向 量 表示 。 在 确定 主题 数 K 的 前 提 下 ,，“ 潜 在 ”3 
题 模型 中 每 篇 文档 每 个 单词 的 主题 采样 范围 为 1~KX， 即 所 有 主 
题 ， 文 档 是 基于 文档 内 单词 与 主题 的 所 属 关系 表示 的 ， 所 以 文 
档 的 向 量 表示 中 每 个 主题 分 量 的 值 都 可 能 不 为 0。 带 标签 双语 
主题 模型 中 ， 每 个 文档 与 该 文档 标注 的 标签 有 约束 关系 ， 文 档 
向 量 〈 文 档 到 主题 的 分 布 ) 的 表示 9 中 ， 只 与 该 文档 有 约束 关 
系 的 主题 分 量 值 不 为 0， 其余 为 0; 

c) 文 档 生 成 过 程 。 在 文档 到 主题 的 分 布 2 确定 阶段 ， 传 统 
“潜在 ”主题 模型 ,根据 Dirichlet 先 验 o 选取 文档 中 的 主题 分 布 
9 。 带 标签 双语 主题 模型 中 ， 每 个 文档 与 主题 〈 标 签 ) 间 要 么 
有 约束 、 要 么 没有 约束 ， 所 以 根据 伯 努 利 先 验 来 确定 文档 至 
主题 的 分 布 ; 
d) 采 样 范围 。 


T 


lim 


Dm 


c 


在 每 次 迭代 中 需要 计算 每 个 文档 中 每 个 单词 


与 所 有 主题 间 的 条 件 概率 p(z klz pw 。 传 统 的 “潜在 ”主题 
模型 ， 由 于 文档 与 主题 之 间 没有 约束 关系 ， 每 篇 文档 中 的 每 个 


单词 主题 采样 范围 为 K。 带 标签 双语 主题 模型 中 ， 每 篇 文档 与 
标签 之 间 有 固定 的 归属 约束 人， 每 篇 文档 中 每 个 单词 主题 采样 
范围 为 与 该 文档 有 约束 关系 的 主题 (标签) 集合; 

e) 采 样 计 算 复杂 度 。 由 于 采样 范围 的 不 同 ， 在 每 一 次 的 迭 
代 更 新 单词 的 主题 分 配 的 过 程 中 ， 传 统 “潜在 ”主题 模型 需要 计 
算 每 篇 文档 中 每 个 单词 与 所 有 主题 间 的 条 件 概 率 。 带 标签 双语 
主题 模型 中 ,只 需要 计算 与 该 文档 有 关联 的 主题 间 的 条 件 概 率 。 
本 文 提出 的 模型 在 采样 过 程 中 的 计算 效率 上 有 一 定 的 优势 ; 

f) 新 文档 的 主题 分 布 的 推断 。 对 于 一 篇 新 的 文档 ， 通 过 已 
经 训练 完成 的 模型 参数 推断 在 主题 上 的 分 布 ， 推 断 过 程 中 通过 
计算 新 文档 中 每 个 单词 与 主题 间 的 条 件 概 率 


p, =k| Zia, was o, wis) 来 对 分 配 的 主题 进行 采样 。 传 统 


“潜在 ”主题 模型 采样 的 主题 范围 为 K。 带 标签 双语 主题 模型 中 ， 
采样 范围 为 训练 阶段 当前 单词 所 分 配 到 的 所 有 主题 。 

本 文 提 出 的 带 标签 双语 主题 模型 中 ， 每 个 主题 有 着 “明确 ” 
含义 。 其 “明确 性 ”确定 了 主题 数 与 每 篇 文档 中 单词 的 主题 采样 
范围 ， 并 且 在 新 文档 主题 推断 阶段 减少 了 与 单词 所 属 主题 采样 
wH. 


3 ”实验 结果 及 分 析 
3.1 ” 跨 语 言 文本 分 类 

为 了 验证 本 文 提出 的 带 标签 双语 主题 模型 在 跨 语 言 文本 分 
类 任务 上 的 有 效 性 和 可 行 性 ， 用 训练 集 的 汉语 与 朝鲜 语 科技 文 
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献 训练 出 分 类 器 ， 并 使 用 分 类 器 对 测试 集 的 汉语 与 朝鲜 语 的 文 
档 分 别 进行 中 语言 文本 分 类 。 语 料 库 是 平行 语料库 ， 所 以 汉语 
与 朝鲜 语文 档 的 内 容 是 相同 的 ， 即 在 语义 上 是 对 齐 的 。 作 为 对 
比 , 与 不 使 用 标签 信息 的 传统 “潜在 "LDA 主题 模型 一 一 文献 [6] 


的 方法 进行 实验 对 比 。 
3.1.1 数据 集 
本 实验 所 使 用 的 双语 语 料 资源 为 延边 朝鲜 族 自治 州 科技 局 


中 朝 科技 文献 平行 语料库 ， 科 技 文 献 包含 汉语 与 朝鲜 语句 子 级 
别 对 齐 的 9 000 篇 论文 的 关键 词 与 摘要 部 分 ， 对 齐 语 料 如 图 3 
所 示 。 其 中 生态 类 6 000 篇 、 航 空 航天 类 3 000 篇 ， 类 别 〈 生 
态 与 航空 航天 ) 的 定义 标准 为 收录 论文 的 期 刊 类 别 ， 其 中 各 类 
别 选取 训练 集 与 测试 集 的 比例 为 9:1。 汉 语 摘要 部 分 使 用 
ICTLAS 分 词 系统 进行 分 词 ， 朝 鲜 语 摘要 部 分 使 用 Hannanum 
分 词 系统 进行 分 词 。 


基于 改进 速度 增益 的 中 段 变 轨 制导 方法 研究 
关键 词 :改进 速度 增益 ; 虚拟 目标 ; 中 段 3 h 需要 速度 ; 状态 


吕 导 律 的 认识 ,提出 了 
-种 基于 E i。 通 过 建 模 、 仿 


$ 
真 ,验证 了 算法 的 可 行 性 


SE S7p WN 7149) FA AE HSH mt^ AF 

IAEE FI NA: IBEN: FU AE YH RE: SE 49: BEL 名 寺 

e%AE es eA we HAVAA gal ro AEA NE SE 57 RE 
sao ge eg wez t| 24S sE 87 RE uus Xessen S2 
AEAN SA dag eau MOA EHHE SIdsieici es P sui gelo Mg 
S50 V138) dS 7Hs 4 YEA 


3 ”中 朝 科技 文献 平行 语 料 


3.1.2 评价 指标 

对 分 类 结果 的 评测 ， 本 文采 用 Macro-F1 值 与 Micro-F1 值 
两 个 指标 对 分 类 性 能 进行 评价 。 Macro-F1 实现 对 每 一 个 类 统计 
指标 值 ， 然 后 再 对 所 有 内 求 算 术 平 均值 。Micro-F1 是 对 测试 集 
中 的 每 一 个 实例 不 分 类 别 进行 统计 ， 建 立 全 局 的 混淆 矩阵 ， 然 
后 计算 相应 指标 。 有 具体 定义 如 下 : 


2* Macro _ precision* Macro. recall 
Macro. Fl- — (9) 
Macro precision + Macro. recall 


; 2* Micro. precision* Micro. recall 
Micro. Fl- - -一 - (10) 
Micro _ precision + Micro _ recall 


其 中 precision 为 精确 率 ， 指 的 是 被 正确 分 类 的 文档 与 所 有 被 分 


类 到 相应 类 别 的 文档 的 比值 ，recall 为 召回 率 ， 指 的 是 被 正确 
分 类 的 文档 与 实际 属于 相应 类 别 的 文档 的 比值 。 具体 定义 如 下 
-" l xd - 
Macro. precision — jè precision, (1) 
1 icl 
Macro. recall = ic] > recall, (12) 
arp 
Micro _ precision = —$&- 7 — (13) 
OT * FF 
V p 
Micro, recall = —42- — (4) 
"IT. FN, 


| 


其 中 : c 代表 训练 集中 所 有 类 别 的 集合 ，|C| 代 表 类 别 的 数量 
TP 代表 被 正确 分 类 到 第 i 个 类 别 的 文档 数量 ，FP 代表 被 错误 
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的 分 类 到 第 个 类 别 的 文档 数量 , FN 代表 实际 属于 第 i 个 类 别 ， 
但 是 被 错误 分 类 到 其 他 类 别 的 文档 数量 。 

Macro-F1 是 每 一 个 类 别 性 能 指标 的 算术 平均 ，Macro-F7 
值 的 结果 极 易 受到 小 样本 类 别 的 影响 。Micro-F1 是 各 个 文档 性 
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方法 


92.3296 92.7696 94.0496 94.3796 


文献 [6] 
48hours 


方法 


表 中 KOR->CHN 表示 用 科技 文献 中 朝鲜 语 部 分 的 关键 词 与 摘 


能 指标 的 算术 平均 ，Micro-F7 值 的 结果 容易 受到 文档 集中 文档 
数 较 多 的 类 别 影响 045。Micro-Fy 值 与 Macro-F1 值 作为 两 个 
可 以 综合 度量 文本 分 类 性 能 的 评价 指标 ， 在 文本 分 类 的 研究 中 
被 广泛 应 用 。 本 文 在 验证 提出 方法 的 分 类 性 能 时 也 将 采用 这 两 
个 评价 标准 。 
3.1.3 参数 设 定 

主题 模型 需要 对 模型 中 的 参数 进行 预先 的 设 定 。 需 要 确定 
EAA K, Dirichlet 先 验 参数 & 与 6， 训练 与 测试 迭代 次 数 。 
带 标签 双语 主题 模型 与 “潜在 ”LDA 主题 模型 参数 设置 如 表 1 所 
Zo 


AY ”对比 实 验 参数 设 定 


带 标签 双语 
“潜在 ”LDA 主题 模型 
主题 模型 
主题 数 K 总 计 18170 400 
先 验 参 数 a 50/K 50/K 
先 验 参数 B 0.01 0.01 
训练 迭代 次 数 1000 1000 
测试 迭代 次 数 100 100 


其 中 ， 本 文 提 出 的 带 标签 双语 主题 模型 的 主题 数 为 确定 的 ， 
主题 数 为 18170, 即 训练 集中 去 重 后 的 唯一 标签 数 .“ 潜 在 ”LDA 
主题 模型 的 主题 数 设 置 为 400， 进 行 对 比试 验 。 在 训练 阶 自 
与 测试 阶段 , 分 别 进行 1000 次 与 100 次 的 迭代 , 以 期 文档 在 主 
题 上 的 分 布 与 主题 在 词 项 上 的 分 布 变 化 达到 收敛 状态 。 
3.1.4 实验 结果 及 分 析 

为 了 比较 分 类 精度 ， 在 中 朝 科技 文献 语 料 上 分 别 使 用 本 文 
提出 的 带 标签 双语 主题 模型 与 传统 “潜在 "主题 模型 文献 [6] 的 
方法 进行 比较 。 通 过 主题 模型 对 文档 集 的 建 模 ， 训 练 集 与 测试 
集中 的 文本 都 被 表示 为 主题 上 的 分 布 。 本 实验 使 用 朴素 贝 叶 斯 
分 类 器 对 双语 文档 进行 跨 语言 文本 分 类 , 具体 的 分 类 任务 包括 ; 
通过 朝鲜 语 训练 文档 训练 的 分 类 器 ,对 汉语 测试 文档 进行 分 类 ; 
通过 汉语 训练 文档 训练 的 分 类 器 ， 对 朝鲜 语文 档 进行 分 类 。 训 
练 集 与 测试 集 以 9:1 的 比例 随机 抽取 ， 统 计 训练 集中 的 标签 与 
词 项 ， 构 建 标签 索引 与 词典 。 利 用 训练 集 的 标签 〈 关 键 词 ) 与 
内 容 部 分 (摘要 )， 对 带 标 签 双语 主题 模型 进行 参数 估计 。 利 用 
带 标 签 双语 主题 模型 对 测试 集 文档 进行 推断 ， 得 到 “通用 ” 主 
BEWANG 。 利 用 训练 集 数据 训练 朴素 贝 叶 斯 分 类 器 ， 最 终 
对 测试 集 文档 进行 分 类 。 

本 文 提 出 的 带 标 签 双语 主题 模型 与 “潜在 "LDA 模型 实验 
所 得 的 分 类 精度 与 训练 消耗 时 间 如 表 2 所 示 。 

表 2 对比 实 验 结果 


mud 


Micro-F1 Macro-F1 
评价 指标 
KOR-> CHN-> KOR-> CHN-> ”时 间 消 耗 
模型 
CHN KOR CHN KOR 
本 文 94.79% 94.81% 92.31% 92.41% 8hours 


要 训练 出 的 分 类 器 对 汉语 部 分 进行 分 类 的 结果 (其 余 表示 法 以 
此 类 推 )。 
本 文 提 出 的 带 标签 双语 主题 模型 在 跨 语 言 文本 分 类 任务 中 
Micro-F1 值 最 高 达到 94.81%, Macro-F1 值 最 高 达到 92.4196, 
可 应 用 于 实际 的 科技 文献 的 跨 语言 自动 文本 分 类 工作 中 。 与 “ 洪 
在 ”主题 模型 的 对 比 中 ,本 文 提出 的 模型 Micro-F1 值 高 于 对 比 实 
W, Macro-Fl 值 低 于 对 比 实验 。 在 6000 篇 的 生态 类 科技 文献 
E, 本 文 提 出 的 模型 分 类 精确 度 高 于 对 比 实验 , 而 3000 篇 的 航 
空 航天 类 科技 文献 中 ， 对 比 实验 分 类 精确 率 高 于 文本 提出 的 模 
型 。 正 好 验证 了 ，Micro-F] 值 容易 受到 文档 集中 文档 数 较 多 的 
类 别 影响 ，Macro-F1 值 容易 受到 小 样本 类 别 的 影响 的 特点 。 对 
模型 评价 ， 需 要 综合 两 种 指标 。 
跨 语 言 文本 分 类 过 程 中 ， 首 先 对 训练 集 进行 建 模 ， 每 一 次 
训练 迭代 中 根据 式 C50 计算 每 篇 文档 里 每 个 单词 分 配 到 每 个 主 
题 的 概率 ， 用 Gibbs 采样 方法 采样 更 新 分 配 的 主题 ， 训 练 迭 代 
完成 后 根据 式 (6) 获得 用 于 跨 语言 文本 分 类 的 主题 模型 的 参数 
9 训练 文档 在 主题 下 的 分 布 ); 其 次 对 于 测试 集中 的 一 篇 新 的 
文档 ， 根 据 上 一 步骤 训练 获得 的 模型 参数 9 ， 结 合 新 文档 中 出 
现 的 词 项 ， 初 始 化 新 文档 的 主题 分 布 ， 并 在 每 一 次 测试 迭代 中 
根据 式 (7) 计算 新 文档 里 每 个 单词 分 配 到 每 个 主题 的 概率 , 与 
训练 过 程 一 样 用 Gibbs 采样 方法 采样 更 新 分 配 的 主题 ， 最 后 根 
据 式 (8) 获得 新 文档 在 主题 下 的 分 布 。 训 练 与 测试 过 程 中 ， 达 
代 次 数 的 设 定 参 考 表 1。 训 练 与 测试 阶段 总 的 时 间 消 耗 上 ， 本 
文 提 出 的 带 标签 双语 主题 模型 总 共 耗 时 8 h,“ 洪 在 ”主题 模型 共 
耗 时 48 h， 总 的 时 间 消 耗 比 为 1:6。 在 训练 阶段 ， 本 文 提出 的 
模型 每 篇 文档 中 每 个 单词 的 主题 采样 范围 给 定 ， 一 般 为 每 篇 论 
文 的 关键 词 个 数 (5~6 个 )， 而 对 比 实验 中 ， 文 档 与 主题 没有 约 
束 关系 ， 需 要 对 所 有 的 主题 计算 条 件 概率 概率 并 采样 ， 增 加 了 
计算 复杂 度 ， 在 新 文档 的 主题 推断 阶段 ， 需 要 计算 新 文档 每 个 
单词 与 主题 间 的 条 件 概率 ， 本 文 提出 的 模型 只 需要 计算 训练 阶 
段 当 前 单词 所 分 配 到 的 所 有 主题 间 的 概率 即 可 ,“ 潜 在 ”主题 模 
型 需要 计算 与 所 有 主题 间 的 条 件 概率 ， 增 加 了 计算 复杂 度 。 
综 上 ， 本 文 提出 的 方法 在 得 到 较 高 的 分 类 精确 度 的 同时 相 
比 于 对 比方 法 节省 了 大 量 时 间 。 
3.2 标签 推荐 
对 “潜在 ”主题 的 实例 化 与 明确 化 , 带 标 签 双 语 主题 模型 可 
以 应 用 于 标签 的 推荐 。 通 过 本 文 提 出 的 模型 对 没有 标注 标签 的 
新 文档 进行 主题 的 推断 ， 得 到 文档 在 主题 上 的 分 布 。 把 文档 表 
示 成 以 主题 为 维度 的 向 量 时 ， 每 个 分 量 值 的 意义 为 : 文档 中 所 
有 单词 里 ， 属 于 该 主题 的 单词 的 占 比 。 分 量 值 越 大 说 明文 档 与 
该 主题 的 相关 性 越 大 。 
本 实验 将 使 用 与 跨 语言 文本 分 类 任务 相同 的 文档 集 。 具 体 
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l B ChinaXive& FHF! 
录用 稿 BAA, F: 面向 跨 语言 文本 分 类 与 标签 推荐 的 带 标签 双语 主题 模型 的 研究 
实现 方法 是 ， 对 测试 集 文档 完成 推断 ， 最 终 表 示 为 主题 上 的 分 ENE 
布 ， 抽 取 分 量 值 最 大 的 前 两 个 主题 作为 推荐 的 标签 ， 与 原 有 的 。” AAE Abies dne 
标签 进行 比 对 。 中 朝 科技 文献 中 题目 、 关 键 词 与 本 文 提 出 的 模 georgei var. (线虫 ); 

型 推荐 的 标签 结果 如 表 3、4 所 示 。 smithii forest dx p 
表 3 中 中 文 文献 * 膜 下 滴灌 技术 生态 -经 济 与 可 持续 性 分 析 A m ux (群落 结构 ) ; (群落 结构 ) 
一 以 新 疆 玛 纳 斯 河流 域 棉 花 为 例 ” 中 ， 论 文 的 关键 词 与 模型 推 ques] 53 Axa $ ug 
荐 的 标签 里 都 含有 “棉花 ”。 表 4 中 朝鲜 语文 献 “LFM 如 本 所 (西藏 色 季 拉 《生物 多 样 性 ) ; 《物种 多 样 性 ) ; 
aeu alae] ue PRO Ao ARKEA qE 
呈 虹 "(LFM 宽带 雷达 信号 的 盲 压缩 感知 模型 ) 中 ， 论 文 的 关键 。 ”杉林 土壤 线虫 (西藏 ); 
词 与 模型 推荐 的 标签 里 都 含有 “对 告 AA” RRR). HH 群落 特征 ) 
在 其 他 文献 的 关键 词语 模型 推荐 标签 之 间 ， 普 所 存在 着 语义 上 每 篇 论文 的 关键 词 由 论文 作者 人 工 添 加 ， 对 事物 的 看 法 不 
的 关联 。 可 避免 地 会 有 差别 ， 所 以 推荐 的 结果 无 法 与 论文 作者 添加 的 关 
表 3 ”中 文科 技 文献 标签 推荐 结果 键 词 精确 对 齐 ， 因 而 利用 语义 上 的 关联 ， 可 以 进行 辅助 性 标签 
论文 标题 论文 关键 词 模型 推荐 的 标签 推荐 。 
膜 下 滴灌 技术 生 
l 4 ”结束 语 
态 -经 济 与 可 持续 棉花 ; 
数值 模拟 ; | | SO KM 
性 分 析 一 以 新 疆 可 持续 分 析 ; 本 文 利 用 科技 文献 、 新 闻 报 道中 的 多 标签 信息 ,结合 LDA 
mE; 
玛 纳 斯 河流 域 棉 Bossel 理论 ; 主题 模型 ， 提 出 了 带 标签 双语 主题 模型 。 本 文 提 出 的 带 标签 双 

花 为 例 语 主题 模型 有 如 下 的 特点 : 

施肥 对 板栗 林地 a) 相 比 于 传统 “潜在 ”LDA 主题 模型 ， 对 主题 进行 “ 实 
施肥 ; 土壤 有 机 碳 ; "I" 
土壤 N20 通 量 动 例 化 "， 有 了 更 明确 的 内 涵 和 更 好 的 解释 性 ; 
水 溶性 有 机 碳 ; 生长 ; T EE 
态 变化 的 影响 b) 在 训练 参数 与 新 文档 主题 分 布 推断 阶段 ， 由 于 采样 范围 
马赫 数 4 下 氧气 给 定 ， 在 参数 估计 与 文档 推断 速率 方面 优 于 传统 “潜在 ”LDA 
直 连 式 脉冲 燃烧 风 洞 ; 点 火 ; EEEE 
自燃 辅助 乙烯 点 主题 模型 ; 
点 火 试验 ; 亚 燃 模 态 ; a E E E — . 
火 实 验 研究 c) 以 中 朝 科 技 文献 平行 语料库 为 语 料 ， 跨 语言 文本 分 类 任 
xa ”朝鲜 语 科技 文献 标签 推荐 结果 务 中 ，Macro-F1 值 达 到 92.4196, Micro-Fl 值 更 是 达到 了 
94.81%， 可 适用 于 实际 应 用 ; 
论文 标题 论文 关键 词 模型 推荐 的 标签 n n" pu 
M d) 依 据 每 个 主题 的 明确 的 含义 , 可 用 于 辅助 性 的 标签 推荐 。 
口 Z "c 
m 在 此 模型 的 基础 上 ， 下 一 步 研究 工作 如 下 : 
EX EJ 3o ou Nu "e p EN 
通过 提取 各 标注 类 别 的 领域 特征 词 ， 提 高 跨 语 言 文本 分 
ge xpgel (空间 绳 系 ); 
$4 du zx 类 精度 ; 
qa wg X3b oppo] SHE ; 能 应 用 于 双语 i 
ias TN (空间 强 网 机 器 人 ); b) 受 限于 语料库 的 语种 ， 现 阶段 只 能 应 用 于 双语 语 料 的 主 
aAA (位 姿 一 体 化 控制 ); Ss Ts 
对 本 对 9 题 建 模 。 如 果 有 涵盖 更 多 语言 的 带 多 标签 的 平行 语料库 ， 则 将 
(空间 绳 系 机 习习 «el i 
: (姿态 控制 ); 模型 扩展 到 多 种 语言 建 模 的 主题 模型 。 
ANEEL (最 优 控制 ) 
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